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摘要 : 标本 数字 化 建设 是 生物 多 样 性 保护 和 利用 的 重要 工作 基础 ， 通 过 标本 数据 的 整合 分 析 ， 
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Abstract: The digitization of specimens is an important basis for the conservation and 
utilization of biodiversity. Through the integrated analysis of specimen data, it can 
provide data support in taxonomy, ecology, bioengineering, biological protection, food 
security, biodiversity assessment, human social activities and education and other aspects. 
At present, the development situation varies from country to country. In order to 
understand the current status of global specimen digitization work, as well as data sharing 
strategies and technology development trends, through comparison, provide suggestions 
for China's specimen digitization work, this article summarizes the status of specimen 
digitization and platform construction in North America, South America, Europe, Africa, 
Asia and Oceania, and reviews the status and trends of specimen data sharing from data 
use agreements, new technologies and methods, and citizen science using. After 
comparison and analysis with the current situation in China, proposed work suggestions, 
including strengthening the construction of coordination mechanisms in the digital 
construction, management and dynamic update of specimens, ensuring the 
synchronization of physical resources and digital resource information; strengthening data 
collation and publishing, promoting data quality improvement, fully opening data use 
agreements, and reducing data use obstacles; strengthen the learning and introduction of 
new technologies, especially the application of open source software, machine learning 
and artificial intelligence technologies, which can play a role in rapid tag identification, 
automatic identification and attribute data extraction; strengthen regional and international 
cooperation to promote data. The integration and application of data products; promote 
the development of citizen science projects, and promote the development of field 
collection, indoor sorting, online error correction, and data product research and 
development. 
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1. 引言 

过 去 450 年 的 时 间 里 ， 科 研 人 员 收 集 的 植物 标本 数量 超过 3. 81 亿 ， 分 布 在 全 球 3000 多 个 
标本 馆 (Krishtalka et al., 2016; Thiers, 2017). 。 通 过 标本 数据 的 整合 分 析 ， 能 够 在 生 
物 分 类 学 、 生 态 学 、 生 物 工程 、 生 物 保护 、 粮 食 安全 、 生 物 多 样 性 评估 、 人 类 社会 活动 和 教学 
教育 等 方面 提供 重要 支撑 (Culley et al.,2013; Heberling et al.,2017; Soltis et al., 
2017; Willis et al., 2017; 4595? 4$, 2018;5Kf&, 2017). Æ 2012 F, GBIF 在 综合 众多 专 
家 意见 的 基础 上 发 布 了 全 球 生 物 多 样 性 信息 学 展望 报告 (GBI0) (Hobern et al.,2012) 。 该 报 
告 从 文化 、 数 据 、 实 证 和 知识 理解 四 个 层次 对 未 来 全 球 的 生物 多 样 性 数据 相关 的 研究 做 了 展 
望 ， 并 将 标本 采集 数据 作为 五 类 基础 数据 源 之 一 (其 他 四 类 数据 源 为 出 版 物 材 料 、 野 外 观测 、 
基因 测序 和 自动 化 遥感 观测 ) ， 为 标本 数据 的 整合 和 应 用 指明 了 方向 。 
在 全 球 范 围 内 ， 过 去 十 年 通过 GBIF (生物 多 样 性 信息 机 构 〉、CoL (全 球 生物 物种 名 
录 ) 、EOL〔 网 络 生命 大 百科 ) 和 BHL《〈 生 物 多 样 性 历史 文献 图 书馆 ) 等 生物 多 样 性 数据 项 目的 
推动 ， 生 物 标本 数据 的 汇聚 和 共享 进展 迅速 。 以 全 球 最 大 的 生物 多 样 性 观测 数据 平台 一 一 GBIF 
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(全 球 生 物 多 样 性 信息 机 构 〉 为 例 CGBIF, 2021) ， 目 前 观测 记录 (Occurrences) 数据 总 量 
为 16.97 亿 条 ， 其 中 传统 标本 馆 的 数字 化 标本 数据 为 1.85 亿 条 〈 占 比 整个 平台 数据 的 
10.9%) ， 其 中 动物 (8637 万 条 ， 占 比 46.5%) 、 植 物 (8586 万 条 ， 占 比 46.2%) 、 s (707 
万 条 ， 占 比 3. 8%) 。 其 中 ， 这 些 标本 数据 分 布 的 前 10 个 国家 是 美国 (3 546 万 条 ) . EA (1 
258 万 条 ) 、 澳 大 利 亚 C1 216 万 条 ) 、 墨 西 哥 〈892 万 条 ) i 5 ~ HÆ 
(609 万 条 ) 、 哥 斯 达 黎 加 《〈526 万 条 ) . WME (452 万 条 ) . WEF (404 万 条 ) 、 瑞 典 
(366 万 条 ) 。 为 了 进一步 加 强 对 全 球 馆藏 资源 的 整合 ，GBIF 在 2019 年 还 启动 了 全 球 科学 馆 
藏 注册 系统 项 目 (GRSciCol1) (GBIF, 2021) ， 收 集 研 究 机 构 、 和 馆藏 和 相关 工作 人 员 的 数据 ， 涵 
盖 了 所 有 相关 学 科 ， 包 括 地 球 与 空间 科学 、 人 类 学 、 考 古 学 、 生 物 学 和 生物 医学 以 及 农业 、 兽 
医学 和 技术 等 应 用 领域 ， 增 补 了 标本 数据 的 元 数据 与 相关 背景 信息 ， 提 升 了 数据 质量 。 
本 文通 过 梳理 世界 各 大 洲 的 标本 数字 化 建设 情况 ， 对 标本 数据 共享 现状 和 趋势 进行 了 调 

研 ， 与 我 国 当前 的 建设 情况 进行 对 比 和 分 析 ， 在 数字 化 建设 与 共享 服务 、 协 同 机 制 、 国 际 合作 
和 公众 科学 等 方面 提出 了 相应 的 建议 。 


2. 数字 化 建设 

2.1 北美 洲 标本 数字 化 建设 

北美 的 标本 数字 化 以 美国 的 iDigBio 平台 为 代表 ，iDigBio 是 一 个 跨 机 构 合 作 的 综合 性 生 
物 多 样 性 数据 平台 ， 是 北美 地 区 标本 数字 化 的 门户 网 站 (iDigBio, 2021) 。 目 前 已 经 数字 化 的 
标本 记录 数量 为 1.28 亿 条 GEH ATO ， 多 媒体 文件 记录 3917 万 条 (植物 占 82. 5%) 
总 共 1688 个 数据 集 。2017 年 前 是 iDigBio 数字 化 工作 开展 最 为 迅猛 的 阶段 。2017 年 至 今 ， 数 
据 量 则 呈现 出 平稳 的 上 升 趋势 。 在 项 目 组 织 上 ，iDigBio 将 参加 单位 (数据 源 ) 的 融入 划分 为 
四 个 阶段 ， 分 别 是 准备 、 协 商 、 行 动 、 数 据 汇 总 ， 按 照 参加 单位 所 处 的 阶段 ， 有 序 开展 工作 ， 
史 得 项 目 能 够 稳定 持续 地 推进 。 
在 数据 规范 与 标准 上 ，iDigBio 有 详细 的 标本 数字 化 文件 规范 、 图 像 存 储 规范 、 图 像 处 理 
规范 、 图 像 使 用 规范 ， 使 得 数字 化 工作 有 明确 的 操作 标准 。 其 规范 与 标准 在 iDigBio 官网 上 都 
有 开放 性 的 文档 说 明 。 基 本 原则 可 以 概括 为 : 采集 图 像 尽量 采用 设备 的 极限 分 辨 紊 ， 保 证 采集 
质量 ， 图 像 应 该 采用 无 损 压 缩 格式 永久 存档 ， 图 像 处 理应 避免 人 为 过 分 修饰 ， 处 理 图 像 应 该 基 
于 原始 图 人像， 避免 误差 积累 ， 应 尽量 为 用 户 提供 最 佳 质量 

在 标本 数字 化 技术 上 ，iDigBio 将 数字 化 任务 划分 为 五 个 核心 任务 集 : 

(D 数字 化 前 期 : 主要 是 标本 实体 的 修复 与 规范 化 整理 工作 。 

(2) 图 像 采集 : 使 用 专业 单反 数码 相机 或 者 高 清 标 本 扫描 仪 进行 图 像 采集 。 

(30 图 像 处 理 : 包括 9 个 常规 工作 ， 分 别 是 质量 控制 、 条 形 码 获取 、 格 式 转换 、 颜 色 亮 
度 调 整 、 图 像 修剪 、 图 像 伙 加 增强 、 图 像 编辑 、 文 件 传输 、 图 像 内 文字 识别 。 

(4) 电子 数据 获取 : 是 指 提取 或 输入 标签 数据 到 数据 库 的 过 程 。 有 具体 的 工作 方法 可 以 是 
自动 化 或 手工 输入 ， 手 段 包括 0CR 图 像 文字 识别 、 语 音 输入 、 键 盘 输入 等 。 

(5) 地 理 位 置 的 描述 与 地 标 化 处 理 : 即将 文本 描述 的 地 名 ， 审 核 并 标注 出 精确 的 经 纬度 
坐标 点 ， 建 议 附 上 误差 范围 、 坐 标 系 等 参数 。 
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数据 标准 与 软件 基础 体系 ， 指 导 着 标本 的 数据 化 与 数据 
准 ， 在 软件 系统 上 提供 了 全 方位 的 解决 方案 ， 
数据 提供 者 的 BioCASe Provider Software (BPS) 
有 具 。BioCASe 是 GBIF 的 成 员 节 点 ， 在 数据 标准 、 应 
oCASe 的 数据 整合 ， 
除了 CETAF 5j BioCASe 以 及 GBIF 外 ， 欧 洲 


统 ， 以 及 适用 了 
据 质 量 检查 的 工 
GBIF 有 着 重要 的 影响 。 通 过 Bi 
ETE CAT o 
构 也 普遍 都 创建 了 自己 的 网 站 系统 ， 
纳入 GBIF 的 共享 范围 。 部 分 数据 库 
成 为 事实 上 的 国际 标准 与 基础 平台 ， 

在 俄罗斯 ， 从 2014 年 开始 ， 
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FE 富 ， 学 术 机 构 众 多 ， 机 构 间 也 形成 了 良好 的 合作 
欧洲 分 类 学 联盟 CETAF (Consortium of European Taxonomic Facilities) 
的 分 类 学 研究 网 络 ， 包 括 了 5000 多 会 员 ， 联 盟 下 机 构 保存 了 全 球 80% 已 描述 的 生 
与 数据 。BioCASe (The Biological Collection Access Service ) 是 CETAF 
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MER 
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行 标本 数字 化 项 目 


年 大 量 的 数据 并 未 
语 ， 已 经 成 为 行业 内 的 基础 数据 库 ， 
如 国际 植物 名 称 索 引 CIPND. 等 专题 数据 库 。 


CAlexey P. 


(Ed. ), 2021) ， 包 


括 两 个 子 项 目 ， 分 别 是 莫斯科 数字 标本 馆 和 俄罗斯 植物 分 布 图 集 ， 并 通过 在 iNaturalist 上 创 
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目前 已 经 累计 形成 标本 113 万 份 ， 
张 ， 物 种 3. 9 万 个 ， 地 标 化 数据 66 万 条 ， 标 签 46 万 张 、0CR 记录 66 万 条 。 


图 片 111 万 


在 法 国 ， 国 家 自然 历史 博物 馆 的 植物 标本 馆 〈 馆 代码 为 P) 的 数字 化 建设 也 积累 了 丰富 的 
经 验 (Le Bras et al., 2017) 。 该 标本 馆 的 第 一 个 专业 化 工具 Vaillant 数据 库 在 1980 年 代 
中 期 就 开发 出 来 了 。 从 1993 年 开始 建设 现在 的 标本 数据 库 Sonnerat， 该 数据 库 目 前 不 仅 用 来 


存放 博物 馆 自身 馆藏 的 标本 ， 同 时 也 是 


个 法 语 国家 的 标本 馆 网 络 系统 〈e-ReCol 


Nat 项 目 ) 。 


大 规模 的 数字 化 计划 则 是 从 2008 年 资助 的 Renobota 项 目 开 始 的 。 下 面 是 该 标本 馆 数 字 化 建设 


的 历史 发 展 表 。 
表 1 法 国 国家 自然 历史 博物 馆 的 植物 标本 馆 数 字 化 项 目 列表 
Table 1 List of Herbarium Digital Projects at the National Museum of Natural History 
of France 
项 目 名 称 时 间 段 〈 年 ) 资助 方 主要 结果 
Project name Time span (Year) Funder Main output 
热带 亚洲 和 美洲 的 莎 ” 2001~2003 博物 馆 内 部 完成 3.1 万 份 数 字 化 标 
草 科 植物 数字 化 项 目 Internal project 本 。 
Cyperaceae Completed 31, 000 
Digitalization digital specimens 
Project in Tropical 
Asia and America 
GBIF 2002-2004 GBIF 第 一 个 全 球 数字 化 项 目 ， 
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千年 种 子 库 项 目 
Millennium Seed 


Bank 


全 球 植物 项 目 
The Global Plants 


Initiative 


Lamarck 标本 数字 化 
项 目 


Lamarck Specimen 


Digitization 


Project 


Auguste de Saint- 


2004-2008 英国 印 园 


Kew Garden 


梅 隆基 金 会 
Andrew W. Mellon 


2004-2006: 非洲 植 
物 倡议 CAPI) 


2007-2008: 4z JÆ Foundation. 

洲 植物 倡议 (LAPI) 

2009-2015: 全 球 植 

物 倡议 CGPI) 

2004-2006: African 

Plants Initiative 

(APT) ; 2007-2008: 

Latin American 

Plants Initiative 

(LAPI) 

2004 国家 研究 中 心 
The National 
Centre for 
Scientific 
Research 

2009 圣保罗 植物 园 研 究 


ChinaXiv 合 作 期 刊 


超过 5. 18 万 份 标本 被 数字 
化 ， 开 发 了 一 个 模式 标本 
的 搜索 引擎 。 

The world's first 
global digitization 
project. More than 
51,800 specimens have 
been digitized, and a 


search engine for type 


specimens has been 
developed. 

完成 3. 1 万 份 数字 化 标 
本 ， 并 做 了 精确 地 地 标 配 
准 工 作 。 

The digitization of 


31,000 specimens with 

accurate geographic 
coordinating was 
completed. 

完成 18. 6 万 份 数字 化 标本 
(其 中 17. 7 万 份 模式 标 
本 ) 

Completed 186, 000 
specimens digitization 
(including 177, 000 Type 


specimens) 


完成 1. 9 万 份 标本 数字 化 
Completed the 
digitization of 19, 000 


specimens 


9 300 份 标本 完成 数字 
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Hilaire 虚拟 植物 标 
本 室 项 目 

Auguste de Saint- 
Hilaire Virtual 


Herbarium Project 


Renobota mi H 


Renobota Project 


Les Herbonautes 项 
日 


Les Herbonautes 


Project 


Open Up! 


2008-2013 


2012-2019 


2013 


所 ， 环 境 信息 中 心 ， 
圣保罗 市 安 帕 洛 佩斯 


基 萨 大 学 基金 会 等 


Sao Paulo 
Botanical Garden 
Research 
Institute， 
Environmental 
Information 
Center, Amparo 
Peschisa 
University 
Foundation of Sao 
Paulo, etc. 
博物 馆 内 部 


Internal project 


La Maison de la 
Chimie 基金 会 ，e 
ReColNAt， 国 家 自然 
历史 博物 馆 


La Maison de la 


Chimie Foundation, 
e-ReColNAt, 
National Museum of 
Natural History 
欧盟 基金 

EU funds 
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化 ， 并 做 了 细 化 处 理 
Complete the 


digitization of 9 300 


specimens 


>500 万 份 标本 被 数字 化 ， 
并 完成 了 图 像 和 标签 数字 
化 工作 。 

More than 5 million 
specimens with images 
and labels were 
digitized 

数字 化 标本 48.8 万 
Completed 488 000 


digitized specimens 


38. 5 万 份 被 提供 到 了 
Europeana 平台 

385 000 digital 
specimen records were 
submitted to the 


Europeana platform 
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Reflora 项 目 2014~2016 
Reflora Project 
e-ReColNat 2013- 


国家 研究 中 心 
The National 
Centre for 
Scientific 


Research 


国家 研究 中 心 ， 国 家 
自然 历史 博物 馆 


National Research 


Center，National 
Museum of Natural 


History 
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提供 30 万 张 图 片 数据 ， 并 
与 里 约 热 内 卢 联邦 大 学 国 
家 博物 馆 合 作 ， 建 立 虚 拟 
的 植物 标本 室 。 


Provide 300 000 picture 
data, and cooperate 
with the National 
Museum of the Federal 
University of Rio de 
Janeiro to establish a 


virtual herbarium. 

数字 化 植物 标本 964 万 
Completed the 
digitization of 9. 64 
million plant specimens 


散 于 欧洲 各 


GBIF 对 外 共享 。 
开展 合作 研究 ， 
所 (SANBI) 为 例 ， 
线 、 
动 了 自 有 标本 资源 的 数字 化 ， 目 前 
馆 的 东非 植物 标本 馆 (East African Herbarium) WA: 


2. 3 非洲 标本 数字 化 建设 


非洲 的 植物 资源 调查 与 积累 起 步 于 殖民 地 时 期 宗主 国 的 植物 调 
国 的 标本 馆 中 ， 随 着 欧洲 标本 的 数字 化 工作 已 经 被 逐步 
中 非 博物 馆 ， 英 国 皂 园 的 非洲 植物 计 蕊 


f , 


前 有 大 量 非 洲 标本 分 


| 等， 都 创建 了 专题 


很 多 项 目 正 在 展开 ， 
已 经 


干 年 种 子 库 等 国际 合作 项 目 ， 


标本 数字 化 还 有 很 大 的 潜力 。 
创建 了 独立 的 网 站 与 专题 数据 库 (SANBI, 2021) ， 
以 及 非洲 植物 POSA 项 目 、 
公开 共享 的 数据 大 部 分 是 通过 


标本 数据 库 ，i 


过 
[非洲 各 国 自身 的 标本 馆 建 设 与 网 络 平台 还 在 起 步 阶段 ， 通 过 与 其 他 发 达 国家 


目 
上 网 共享 ， 
x EG 


如 比利时 的 星 家 


以 南非 国家 生物 多 样 性 研究 


国家 植被 数据 库 NVD 等 项 目 ， 
GBIF 发 布 。 
热带 非洲 最 大 的 植物 学 收藏 ， 目 前 拥有 


700, 000 多 条 植物 标本 及 相关 记录 ， 它 是 热带 非洲 最 重要 的 国家 级 数据 中 心 ， 
分 布 、 开 发 利用 与 保护 方面 。 数 据 管理 


东非 植物 的 分 类 、 


BRAHMS 系统 在 非洲 应 用 较为 ) 


泛 ， 为 肯尼亚 国家 博物 馆 、 南 非 BLFU 标本 馆 等 多 个 机 构 均 提供 


了 技术 支持 (East African Herbarium, 2021; BLFU, 2021) . 


总 之 ， 非 洲 的 标本 数字 化 了 
与 数字 化 工作 外 部 依赖 性 很 强 ， 


[L 作 基础 资料 在 欧洲 ， 


2.4 南美 洲 标本 数字 化 建设 


工作 空白 区 较 多 ， 未 来 的 潜 


主要 通过 GBIF 共享 数据 ， 


力 很 大 。 


技术 方面 ， 


PETI a 


肯尼亚 国家 博物 


研究 主要 集中 在 
除了 GBIF 平台 外 ， 


有 标本 资料 
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南美 的 大 量 历史 标本 都 保存 于 美国 、 欧 洲 的 各 个 研究 所 与 大 学 的 标本 馆 中 。 除 了 巴西 外 ， 
各 国 的 标本 馆 数 字 化 建设 程度 都 比较 低 ， 目 前 能 够 获取 的 标本 数据 基本 都 来 自 GBIF， 按 植物 标 
本 记录 统计 ， 巴 西 约 有 700 万 ， 哥 伦比 亚 139.2 万 ， so reis 
XE 52.6 万 。 在 独立 的 信息 系统 建设 上 上， 巴西 的 体系 比较 完整 ， 很 有 特色 。 书 西 的 标本 数字 化 
工作 主要 体现 在 speciesLink 平台 中 (speciesLink, 2021), 2021 年 4 月 15 日 已 经 上 线 
的 数据 包括 了 534 个 数据 集 ，1521.9 万 在 线 记 录 ， 其 中 1129.5 万 条 记录 具有 地 理 坐标 ， 
378. 5 万 记录 包含 图 像 ，53. 2 万 模式 标本 ， 其 中 藻类 真菌 与 植物 标本 合计 有 1097 万 记录 在 
线 。 从 2002 年 至 今 ， 数 字 化 标本 量 呈 现 稳定 上 升 的 趋势 。 在 数字 标本 管理 系统 方面 ， 
speciesLink 的 精细 化 实时 管理 技术 十 分 突出 ， 其 指标 系统 indicators， 可 以 详细 展示 每 天 新 
增 的 数据 集 、 标 本 记录 、 地 标 化 记录 等 量化 指标 。 其 数据 清理 系统 ， 可 以 在 线 展示 出 数字 标本 
中 存在 的 问题 类 型 与 错误 统计 ， 诸 如 必 填 字段 的 空缺 、 地 理 坐 标 缺 失 、 地 标 错 误 〈 如 位 置 在 海 
中 ) 、 重 复 的 编号 、 怀 疑 出 错 的 学 名 人 名 、 地 名 错误 等 ， 很 多 问题 都 附 上 了 自动 化 的 建议 ， 问 
题 可 以 逐 级 展开 ， 可 跟踪 到 具体 的 标本 记录 本 身 ， 可 供 随时 修订 。 其 工具 与 应 用 软件 服务 十 分 
丰富 ， 提 供 了 十 余 套 专业 软件 服务 ， 涉 及 到 数据 管理 、 地 标 化 与 地 图 应 用 、 物 种 数据 库 管 理 、 
物种 分 布 模型 、 物种 查询 浏览 器 插件 、 网 络 平台 管理 、 专 业 量 化 指标 系统 等 方面 。 


2.5 大 洋 洲 标本 数字 化 建设 

澳大利亚 虚拟 植物 标本 馆 是 一 套 在 线 资 源 库 (AVH, 2021) ， 可 在 线 访问 澳大利亚 和 新 西 兰 植 
物 标本 数据 ， 总 数量 超过 666 万 份 ( 来 自 23 家 澳大利亚 和 新 西 兰 的 标本 馆 ) 。 后 随 澳 大 利 亚 
生物 图 集 (ALA) 项 目的 开展 ，AVH 被 合并 到 ALA 中 一 起 发 展 CALA, 2021) 。 在 ALA 中 ， 与 AVH 同 
级 别 的 数据 合作 伙伴 还 包括 在 线 动 物 馆 藏 记录 集 (0ZCAM) 、 澳 大 利 亚 种 子 银行 合作 伙伴 
(ASBP) 和 默 里 达 令 贫 地 管理 局 (MDBA) 。 
新 西 兰 总 的 植物 标本 超过 140 万 件 ， 拥 有 世界 上 最 多 的 南极 植物 标本 数据 ， 约 有 64 万 件 。 
2011 年 ， 新 西 兰 虚拟 标本 馆 CNZVH) 正式 启动 ， 这 是 一 个 拥有 11 个 标本 馆 数据 的 虚拟 合作 网 
络 ， 可 以 在 线 提 供 70 万 件 标本 的 查询 和 检索 。 该 系统 是 由 澳大利亚 虚拟 标本 馆 AVH) 提供 软 
件 和 技术 支持 。 随 后 ， 该 项 目 也 被 合并 到 AVH 中 ， 并 最 终 成 为 ALA 的 一 部 分 。 


2.6 亚洲 地 区 

截至 目前 ， 亚 洲 地 区 由 于 民族 多 、 语 言 复 杂 ， 以 及 经 济 和 科研 工作 相对 落后 的 原因 ， 数 字 
化 工作 还 任重道远 。 尽 管 中 国 大 陆 和 人 台湾、 印度 、 日 本 、 韩 国 等 国 在 生物 多 样 性 数据 库 建设 方 
面 有 比较 好 的 基础 , ， 但 大 多 数 亚洲 国家 尚 没有 完善 的 生物 多 样 性 数据 库 ， 标 本 数字 化 建设 工 
作 相 对 落后 。 以 GBIF 上 东南 亚 国家 的 标本 数量 及 其 贡献 国家 来 看 〈 表 2) ， 该 地 区 的 标本 绝 大 
多 数 并 不 是 由 本 国 发 布 的， 而 是 欧美 国家 数字 化 后 发 布 ， 还 有 些 国 家 尚 无 任何 数字 标本 共享 ， 
急切 需要 内 外 部 力量 合作 ， 来 共同 推动 该 地 区 的 标本 数字 化 建设 工作 。 


表 2 GBIF 上 东南 亚 国家 的 数字 化 标本 情况 (截止 2021 年 04 月 15 HD 
Table 2 Digital specimens of Southeast Asian countries on GBIF ( Due April 15, 
2021) 


国家 标本 数 国家 排 TOP 3 数据 发 布 国 家 
Country Specimens 名 Top 3 Data publishing country 
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Country 国家 1 和 数量 国家 2 和 数量 。 国家 3 和 数量 
ranking No.1 Country & No. 2 Country & No.3 Country & 
Specimens Specimens Specimens 
泰国 483 883 11 美国 : 193 745 H=: 116 601 ”英国 : 63 970 
Thailand The United Netherlands United Kingdom 
States 
印度 尼 西 亚 1 631 211 9 H=: 870 899 XH]: 310216 XÆ: 98 720 
Indonesia Netherlands The United United Kingdom 
States 
LEES 38 257 = 法 国 : 11 232 美国 : 10 450 HÆ: 5 979 
Cambodia France The United Japan 
States 
老挝 75 349 = XB. 24 701 英国 : 19 250 . 法国: 9 639 
Laos The United United Kingdom France 
States 
缅甸 65 833 = XH: 50 164 英国 : 8 043 m=: 3 976 
Burma The United United Kingdom Netherlands 
States 
马来西亚 425 071 16 荷兰 : 215 231 美国 : 149 856 ”英国 : 40 819 
Malaysia Netherlands The United United Kingdom 
States 
菲律宾 558 903 24 美国 ，401 800 荷兰 :103 426 ”瑞典 ，20 949 
Philippines The United Netherlands Sweden 
States 
新 加 坡 19 632 = 美国 : 7 879 英国 : 6 071 荷兰 : 4 371 
Singapore The United United Kingdom Netherlands 
States 
东帝汶 14 468 = 澳大利亚 : 荷兰 : 1 945 美国 : 554 
Timor-Leste Australia 10 598 Netherlands The United 
States 
越南 267 770 7 美国 : 96 949 法 国 : 57 283 ”荷兰 : 21 580 
Vietnam The United France Netherlands 
States 
基于 此 ， 我 国 科研 人 员 在 亚洲 生物 多 样 性 保护 和 数据 库 网 络 计 划 CABCDNet, 2021) 的 基 
础 上 提出 了 亚洲 植物 多 样 性 数字 化 计划 (Mapping Asia Plant， 简 称 MAP) ， 分 东南 亚 、 南 


亚 、 西 亚 、 中 亚 、 北 亚 
数据 整理 入 手 ， 正 在 逐步 


Es 


(俄罗斯 亚洲 部 分 ) 和 东北 亚 等 6 个 区 域 


E 进 工作 ， 从 文献 出 版 物 和 标本 
亚洲 地 区 的 生物 多 样 性 数字 化 建设 与 共享 合作 。 


3. 标本 数据 共享 现状 和 趋势 
3.1 GBIF 平台 上 的 数据 共享 现状 


GBIF 是 全 球 标本 数据 最 大 的 共享 平台 ， 
进行 分 析 统 计 ， 可 以 了 解 全 球 标本 数据 的 总 体 共 享 情况 〈 表 3) 。 可 以 看 到 欧美 国家 的 数据 贡 
献 占 了 全 球 的 绝 大 部 分 ， 发 展 中 国家 的 贡献 相对 有 限 ， 与 国际 经 济 文化 


但 发 展 


1 国家 潜力 


巨大 ， 将 是 未 来 标本 数据 增长 的 基础 。 
参与 GBIF 数据 发 布 的 国家 统计 


表 3 


通过 对 GBIF 上 各 大 洲 的 参与 


玉 | 


家 和 数据 发 布 情况 


的 发 展 水 平 密切 相关 ， 


Table 3 Statistics of countries participating in the publishing of GBIF data 


区 域 国家 数 — 参与 国家 列表 数据 发 布 者 AE JIR) 
Region Country Countries Data Data volume (10 K) 
number providers 

北美 洲 2 美国 、 加 拿 大 293 56 219.7 
North The United States， 
America Canada 
欧洲 21 安道 尔 、 白 俄罗斯 共和 国 、 比 利 664 54 726 
Europe 时 、 丹 麦 、 爱 沙 尼 亚 、 芬 兰 、 法 

国 、 德 国 、 冰 岛 、 爱 尔 兰 、 卢 森 

f&. WME BE. JC. TEEDA. 

斯 洛 伐 克 、 斯 洛 文 尼 亚 、 西 班 牙 、 

瑞典 、 瑞 士 、 英 国 

Andorra, Republic of Belarus, 

Belgium, Denmark, Estonia, 

Finland, France, Germany, 

Iceland, Ireland, Luxembourg, 

Netherlands, Norway, Poland, 

Portugal, Slovakia, Slovenia, 

Spain, Sweden, Switzerland, 

United Kingdom 
大 洋 洲 3 澳大利亚 、 新 西 兰 、 汤 加 368 8 647. 2 
Oceania Australia, New Zealand, Tonga 
南美 洲 8 阿根廷 、 巴 西 、 智 利 、 哥 伦比 亚 、 368 5 648. 4 
s 哥斯达黎加 、 墨 西 哥 、 秘 鲁 、 乌 拉 
America E" 

ES 

Argentina, Brazil, Chile, 

Colombia, Costa Rica, Mexico, 

Peru, Uruguay 
非洲 22 SEMHROURUN. NP MERE. "bo 159 3 005. 1 
Africa 


非 共 和 国 、 刚 果 民 主 共和 国 、 厄 瓜 
多 尔 、 加 纳 、 几 内 亚 、 肯 尼 亚 、 利 
比 里 亚 、 马 达 加 斯 加 、 马 拉 维 、 马 
+$ 尼 亚 、 尼 日 尔 、 尼 尔 利 
jJ. HAERE, Z 


亚洲 6 
Asia 
总 计 62 
Total 


a” SPA PERE 


Angola, Benin, Cameroon, 


Central Africa, Congo, Ecuador, 
Ghana, Guinea, Kenya, Liberia, 
Madagascar, Malawi, Mali, 
Mauritania, Niger, Nigeria, 
South Africa, South Sudan, 
Tanzania, Togo, Uganda, 
Zimbabwe 


HÆ., seb 越南 、 中 国 〈 包 括 
湾 ) JEER, JER 
Japan, South Korea, Vietnam, 


人 


Hs Ei 


^ 


China (including Taiwan), 
Philippines, Nepal 


68 1 736.2 


1 920 129 982.6 


3. 2 数据 使 用 协议 和 声明 


标本 数据 在 共享 和 流通 之 前 ， 需 要 明确 其 使 用 协议 ， 用 户 才能 合法 使 用 和 加 
年 ，GBIF 对 1.2 万 个 数据 集中 的 4. 16 亿 条 数据 记录 做 了 数据 协议 的 总 体 分 析 后 发 现 ， 只 有 


10% 的 数据 集 拥 


(Peter Desmet,2013) 。 在 
对 混乱 的 数据 协议 做 了 梳理 
CC BY 和 CC BY-NC。 经 过 梳理 
4.0 (27.69 、CC BY-NC 4.0 (15.7%) 。 
( 表 4) 分 析 ， 可 以 看 出 CCO 和 CC BY 是 最 受 欢迎 的 共享 协议 。 


有 协议 声明 。 而 数据 协议 竟然 有 432 种 ， 这 极 大 地 阻碍 了 数据 的 共享 和 流 i 
的 基础 上 ，GBIF EH 


3x 4 Vi 


之 后 ， 


^am 


38 


过 对 北美 和 


工 。 在 2013 


型 


JH 


委员 会 进行 了 广泛 的 沟通 和 咨询 ， 
要 求 将 所 有 的 现 有 协议 都 等 同 地 设置 为 以 下 三 个 协议 中 : CC0、 
目前 的 数据 协议 占 比 情况 是 : CCO 1.0 (56. 7$) ~ CC BY 


澳大利亚 的 标本 数据 平台 的 共享 协议 


但 目前 仍然 有 大 量 的 标本 馆 平 


制约 


台 ， 数 据 界面 没有 明确 标识 使 用 协议 ， 部 分 数据 使 用 还 需要 繁琐 的 线 下 申请 和 审批 流程 ， 
了 数据 流通 和 再 利用 。 
表 4 典型 标本 平台 的 数据 使 用 协议 
Table 4 Data usage agreement of the main specimen platforms 
平台 名 称 ” 国家 或 区 域 数据 量 享 协 议 类 别 
Platform Region Data volume Data usage agreement 
name 
GBIF 全 球 166X 10° CCO 1.0. CC BY 4.0. CC BY-NC 
Global 4.0 
iDigBio 北美 120 X 10* Public-domain or CCO, CC 
North America BY. CC BY-SA, CC BY-NC 和 CC 
BY-NC-SA 
AVH 澳大利亚 0. 66 X 10 CC BY 4.0 


Australia 
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享 的 技术 与 方法 上 ， 受 到 IT 拉 术 突飞猛进 的 影响 ， 在 儿 乎 所 有 应 
用 环节 都 出 现 了 革新 。 在 数字 影像 的 获取 上 上， 流水线 式 作 业 的 高 速 扫描 系统 使 得 海量 标本 的 快 


速 数字 化 成 为 可 能 ， 在 提升 图 像 质量 方面 ， 针 对 分 类 学 研究 的 需要 ， 为 了 强化 分 类 学 特征 ， 出 


现 了 高 ; 


现 了 三 维 高 清 影 像 获取 设备 等 新 创举 。 在 野外 


GPS 等 智能 设备 应 


j 普 遍 ， 获 取 了 海量 的 带 有 精 有 


4 扫描 仪 、 标 本 的 侧 光 摄影 术 以 及 结合 解 音 


I 镜 的 显 微 摄影 。 


在 动物 标本 数字 化 中 


i] ex 


工作 


!, qul 


数码 相机 、 


了 丰富 的 背景 资料 ， 某 些 情况 下 甚至 蔡 代 标本 成 为 唯一 的 凭证 资料 。 


在 数据 管理 与 发 布 方面 ， 除 了 GBIF 官方 提供 的 IPT (集成 发 布 工 具 包 ) 之 外 ， 还 有 


， 还 出 
智能 手机 、 手 持 


地 理 坐 标的 植物 活体 影像 数据 ， 为 标本 提供 


BRAHMS (Botanical Research and Herbarium Management System， 植 物 研 究 和 标本 馆 管理 系 


统 ) 应 用 比较 广泛 ， 由 英国 牛津 大 学 植物 系 历经 数 十 年 研 
单位 ， 可 提供 


树木 园 、 种 子 库 等 科 丰 


出 而 成 ， 广 泛 用 于 标本 馆 、 植 物 园 、 
数据 管理 与 在 线 发 布 。 


在 数据 挖掘 与 分 析 方面 ， 基 于 GBIF 数据 已 有 大 量 的 数据 分 析 工 上 共和 代码 ， 可 对 标本 和 观 


测 数据 ; 


AVH; 
可 以 通过 数据 接口 与 应 


Python 开发 包 ， 使 得 编程 访问 iDigBio 数据 非常 


用 生态 ， 可 为 数据 开发 者 提供 强大 的 技术 文 持 。 国 


J TEA 快速 整合 ， 


行 分 析 和 挖掘 ， 仅 GitHub 网 站 上 ，GBIF 相关 的 开源 代码 库 就 有 686 个 ， 其 中 有 R 语言 
85 个 ，Python 语言 54 个 ，Java 语言 52 个 ，JavaScript 语言 51 个 。 
SII 等 平台 也 都 有 专门 的 应 用 工具 专栏 。 不 同 开发 语言 的 数据 访问 工具 包 也 逐步 完善 ， 
提供 灵活 高 效 的 编程 环境 。 例 如 iDigBio 提供 的 
WA, JU E Python 科学 计算 与 人 工 智能 的 应 
内 的 软件 工具 开发 领域 也 正在 繁荣 ， 如 用 于 


iDigBio. BioCASe, 


标本 馆 管理 的 herblabel (ZHANG et al., 20170 ， 用 于 分 类 树 构 建 与 分 析 的 Taxonomic Tree 
Tool 在 线 工 具 (Taxonomic Tree Tool, 2021) ， 用 于 生物 多 样 性 数据 清洗 、 统 计 与 分 析 的 


ipybd (Ipybd, 2021) ， 在 技术 实力 ， 以 及 应 用 效果 上 都 令 人 印象 深刻 ， 具 有 极 强 的 实用 性 。 


随 着 人 工 智能 深度 学 习 技术 的 突破 ， 图 像 识别 App 进入 了 实 月 


软 、 腾 讯 、 百 度 等 均 有 专题 应 用 ， 也 公布 了 开放 的 API， 人 工 智 


HRS. MHJ 


I 
au 


因素 ， 充 分 利 
得 更 多 的 应 用 场景 。 


生物 学 领域 ， 就 
于 识别 标本 的 标本 馆 伴 侣 等 ， 
在 公众 科学 、 科 普 领 域 取得 了 全 社会 的 关注 与 认可 ， 
通 公众 的 日 常 需求 ， 通 过 实践 i 


另外 在 


现 了 一 批 生物 图 像 识别 的 App; 


虽然 在 履 盖 的 物 


子 鉴定 、 花 粉 鉴定 、 


数量 、 识 别 精 度 上 


化 训练 ， 扩 大 识别 范围 ， 


日 期 ， 互 联网 巨头 如 谷歌 、 微 


能 识别 已 经 成 为 一 项 公 


基础 


如 识别 植物 的 形 色 、 花 伴侣 ， 
还 处 于 起 步 阶段 ， 但 已 经 
对 常见 植物 的 识别 准确 率 已 经 能 够 满足 普 
FE 明了 人 工 智能 巨大 的 应 用 潜力 。 未 来 还 需要 在 识别 
用 分 类 学 知识 ， 尤 其 是 标本 数据 ， 强 


加 入 地 理 
让 人 工 智能 技术 获 


品种 鉴定 、 


有 害 入 侵 物 种 自动 鉴定 等 


分 领 


域 也 将 大 有 可 为 ， 让 分 类 学 知识 通过 人 工 智能 服务 于 社会 。 标 本 数字 化 提供 的 大 量 数据 ， 将 是 


人 工 智能 时 代 机 器 学 习 的 重要 基础 。 


3.4 公众 科学 的 发 展 
标本 数字 化 工作 和 公众 科学 探索 意愿 的 结合 ， 


站 提供 了 19 世纪 信件 识别 、 真 菌 
划 等 公众 可 参与 项 目 。 大 英 历史 博物 馆 玫 


众生 了 各 种 公众 科学 项 目的 诞生 。 如 印 园 网 
特征 补 全 、 植 物 和 真菌 标本 标签 识别 和 手机 珍稀 植物 保护 计 
F 展 了 兰花 观察 者 (0rchid 0bservers) 的 公众 科学 项 


> 


目 ， 通 过 公众 参与 获得 数据 ， 使 用 兰花 作为 模型 ， 用 于 深入 研究 气候 对 英国 植物 区 系 的 影响 。 


chinaXiv:202105.00085v1 


北美 地 区 的 iDigBio 平台 也 提出 


区 ， 将 分 类 学 家 


为 科学 研究 提供 


与 生物 爱好 者 基于 兴趣 组 乡 


了 公众 可 参与 的 众 包 项 目 以 及 LiveScience 项 目 。 
大 的 项 目 是 iNatrualist， 它 通过 移动 App 为 野外 考察 提供 了 非常 便捷 的 工具 ， 
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目前 影响 最 
创建 了 在 线 社 


起 来 ， 通 过 众 包 方式 收集 了 大 量 的 生物 影像 资料 ， 


了 丰富 的 第 一 手 资料 。 这 些 项 目 拉 近 了 公众 与 标本 馆 、 数 据 库 的 距离 ， 将 科学 


研究 、 科 普 宣 传 


与 社会 服务 结合 在 


与 国际 趋势 


众 科 学 信息 平台 。 包 括 基于 论坛 、 微 博 、 即 时 通讯 
组 ， 也 包括 基于 移动 App、 


类 似 ， 中 国 的 公众 科学 活动 经 过 多 年 的 发 


起 ， 通 过 灵活 的 工作 策略 ， 获 得 


家 与 爱好 者 加 入 。 


这 些 公众 科学 


可 以 代替 标本 成 为 


完 的 重要 凭证 。 


微 信 小 程序 、Web App 等 专用 工具 昌 
馆 〈CFH) 、 中 国 植物 图 像 库 CPPBC) 、Biotracks、 形 色 、 花 伴 个 、 绿 途 等 ， 


台 积 累 了 大 量 的 野外 观测 资料 ， 是 对 传统 标本 数据 如 
通过 整理 与 审核 ， 其 中 高 质量 的 数据 可 以 作为 标本 数据 库 


普遍 的 认同 。 
也 形成 了 多 种 层次 多 种 方式 的 公 


中 的 新 型 数据 资源 类 型 ， 成 为 标本 数字 化 资源 库 的 正式 组 成 部 分 。 


4. 讨论 和 建议 


经 取得 了 非常 好 
本 数字 化 多 是 基 
设 ， 形 成 了 中 心 
存在 共享 协议 不 


上 ， 仍 然 需要 线 下 沟通 ， 对 数据 复 用 造成 


方面 ， 虽 有 良好 
提出 以 下 建议 : 


(1) 加 强 数 字 化 建设 、 


(2) 加 强 数据 整理 和 发 布 ， 促 ; 


等 。 充 分 开放 数 


IPT 工具 对 数据 对 外 发 布 ， 并 通过 文献 引用 的 跟踪 ， 分 析 标 本 数据 在 不 同 领域 的 应 用 和 服务 情 
通过 数据 使 用 ， 获 得 数据 反馈 ， 获 


况 。 通 过 数据 的 


的 成 效 ，3 


于 数据 汇 缴 的 项 目 制 管理 ， 
强 ， 节 点 弱 的 格局 ， 数 据 


通过 梳理 全 球 标本 数字 化 的 现状 和 进展 ， 与 国际 相 比 ， 
有 具有 自己 的 优势 ， 但 仍然 存在 一 些 问 题 ， 


[ 具 等 通用 公众 信息 交流 平台 上 的 兴趣 群 
9 兴趣 群 组 。 例 如 中 国 自然 标本 


均 有 大 量 的 科学 


要 的 补充 ， 部 分 资料 


国内 标本 数字 化 建设 与 数据 共享 已 
需要 努力 解决 。 包 括 : 标 
进行 集中 共享 ， 缺 少 后 期 的 分 布 式 数据 网 络 节点 建 
质量 的 持续 更 新 缺乏 相应 的 机 人 


由 支持 。 数 据 共享 方面 


规范 ， 标 识 不 明确 ， 尤 其 是 在 多 语言 的 互联 网 环境 下 ， 大 规模 数据 使 用 授权 


的 基础 ， 但 还 缺乏 亮点 项 目 与 应 用 。 通 过 与 国际 趋势 的 对 比 ， 


管理 和 动态 更 新 方面 的 协同 机 制 建设 ， 确 保 实物 
源 信 息 的 同步 。 加 强 标本 数据 与 其 他 生物 多 样 性 数据 的 融合 ， 


数据 质 


困扰 。 另 外 ， 在 新 技术 应 用 、 国 际 合作 以 及 公众 科学 


结合 实际 情况 ， 


资源 和 数字 化 资 


成 为 这 个 学 科 的 重要 资源 拼图 。 
量 的 提升 ， 特 别 是 最 为 重要 的 分 类 学 和 时 空 信息 


据 使 用 协议 ， 利 用 CC0 或 者 CC BY 协议 来 减少 数据 使 用 的 阻碍 。 充 分 利用 GBIF 


共享 服务 ， 


(3) 加 强 对 新 技术 的 学 习 和 引入 
快速 识别 分 类 、 标 本 自动 辅助 鉴定 和 特征 属性 的 数据 提取 等 方面 发 挥 作用 。 力 
的 开源 代码 研究 。 


(4). 加 强 区 域 和 


E 动 跨国 家 或 跨 


国际 合作 ， 加 强 数 据 的 汇聚 和 整合 。 通 过 MAP 等 区 域 或 


得 数据 更 新 ， 提 升 数据 质量 。 
， 特 别 是 机 器 学 习 和 人 工 智能 技术 的 应 用 ， 能 够 在 标签 


1 强 针对 标本 数据 


国际 合作 项 目 来 


区 域 的 数据 建设 和 共享 ， 带 动 薄弱 国家 的 标本 数字 化 建设 。 


(5) 加 强 公 众 科 学 项 目的 合作 和 推广 ， 让 专业 人 员 和 大 众 爱好 者 参与 进来 ， 促 进 标本 数 


据 的 野外 采集 、 


室内 整理 、 


在 线 纠 错 、 数 据 产品 


发 等 工作 的 开展 。 


~ 
( 
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